Página de Pesquisa de Notícias e Produtos de IA

Tipo :

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

2025-01-28 10:34:39.AIbase

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

A DeepSeek, empresa de modelos de linguagem de grande porte, lançou o novo modelo multimodal Janus-Pro, marcando sua entrada oficial no campo da geração de imagens por texto. Este lançamento representa um avanço significativo na tecnologia de IA multimodal da DeepSeek. Em testes de referência como GenEval e DPG-Bench, o Janus-Pro-7B não apenas superou o DALL-E3 da OpenAI, mas também modelos populares como Stable Diffusion e Emu3-Gen. O Janus-Pro utiliza licença MIT.

2025-01-15 08:41:23.AIbase

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

A Alibaba DAMO Academy lançou recentemente um modelo de linguagem grande multimodal chamado Valley2, projetado para cenários de comércio eletrônico. Ele visa melhorar o desempenho em várias áreas e expandir os limites de aplicação em comércio eletrônico e vídeos curtos por meio de uma arquitetura de linguagem visual escalável. O Valley2 utiliza o Qwen2.5 como base do LLM, juntamente com o codificador visual SigLIP-384, combinando camadas MLP e convoluções para uma conversão de recursos eficiente.

2025-01-08 17:10:10.AIbase

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Hu Han, ex-chefe de pesquisa do grupo de computação visual do Microsoft Research Asia, juntou-se oficialmente à Tencent, assumindo o desenvolvimento do modelo multimodal HunYuan, substituindo Liu Wei, ex-líder de tecnologia do modelo HunYuan, que deixou a empresa. Esta notícia chamou a atenção da indústria. Hu Han possui um sólido background acadêmico. Em 2008, graduou-se na Universidade Tsinghua e, em 2014, obteve seu doutorado sob a orientação do renomado professor Zhou Jie. Sua tese de doutorado recebeu o Prêmio de Excelência em Teses de Doutorado da Sociedade Chinesa de Inteligência Artificial em 2016. Em 2012, Hu Han trabalhou na Universidade da Pensilvânia...

2024-11-19 13:51:41.AIbase

Equipe da Universidade de Pequim lança o modelo multimodal LLaVA-o1, com capacidade de raciocínio comparável à do GPT-o1!

Recentemente, uma equipe de pesquisa da Universidade de Pequim e outras instituições anunciou o lançamento de um modelo multimodal de código aberto chamado LLaVA-o1. Afirma-se que este é o primeiro modelo de linguagem visual capaz de realizar raciocínio espontâneo e sistemático, comparável ao GPT-o1. O modelo apresentou desempenho excepcional em seis benchmarks multimodais desafiadores, com sua versão de 11B parâmetros superando outros concorrentes, como Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct. L

2024-11-19 09:54:07.AIbase

Mistral lança o Pixtral Large, seu modelo multimodal de código aberto mais poderoso, e atualiza o Le Chat para acesso direto ao Flux Pro

A startup francesa de inteligência artificial Mistral AI anunciou uma série de novos recursos para seu assistente de IA Le Chat, incluindo pesquisa na web integrada, geração de imagens e o lançamento de seu novo modelo Pixtral Large. Com a atualização do Le Chat, os usuários agora podem acessar conteúdo da web em tempo real diretamente pelo Le Chat, obtendo informações facilmente. Ao mesmo tempo, com a ajuda do modelo Flux Pro do Black Forest Labs, os usuários também podem...

2024-10-25 11:16:59.AIbase

Pesquisa de IA da Salesforce lança novo modelo multimodal BLIP-3-Video: compreensão de vídeo de baixo custo

Recentemente, a equipe de pesquisa de IA da Salesforce lançou um novo modelo de linguagem multimodal: o BLIP-3-Video. Com o rápido aumento do conteúdo de vídeo, o processamento eficiente de dados de vídeo tornou-se um problema premente. Este modelo visa melhorar a eficiência e a eficácia da compreensão de vídeo, aplicável a vários setores, desde direção autônoma até entretenimento. Os modelos tradicionais de compreensão de vídeo geralmente processam vídeos quadro a quadro, gerando uma grande quantidade de informações visuais. Esse processo não apenas consome muitos recursos computacionais, mas também limita significativamente a

2024-09-20 09:06:14.AIbase

Alibaba International lança o Ovis, um novo modelo multimodal de IA que fornece etapas de cozimento apenas olhando para os pratos

Em um recente lançamento, a equipe de IA da Alibaba International revelou seu mais novo modelo multimodal de IA, o Ovis. Essa tecnologia de IA inovadora oferece novas oportunidades para vários setores. O Ovis possui uma capacidade impressionante de compreensão de imagem e processamento de dados, proporcionando uma experiência refrescante. A capacidade multimodal do Ovis é extremamente poderosa; ele pode processar vários tipos de dados, como texto e imagens, demonstrando sua excelente capacidade abrangente. Em comparação com os modelos de linguagem tradicionais, o Ovis não apenas compreende texto, mas também pode analisar profundamente informações não textuais, como imagens.

2024-08-26 13:54:33.AIbase

Yun Zhi Sheng lança o modelo multimodal Shan Hai: com troca livre de timbre e compreensão de cenários visuais

A Yun Zhi Sheng, empresa de destaque em inteligência artificial na China, anunciou em 23 de agosto de 2024, em Pequim, o lançamento de sua mais recente inovação: o modelo multimodal Shan Hai. O modelo multimodal Shan Hai faz parte da infraestrutura de IA Atlas da Yun Zhi Sheng, sendo capaz de receber e processar entradas de múltiplos modos, como texto, áudio e imagens, e gerar em tempo real saídas em qualquer combinação de texto, áudio e imagens. Essa capacidade permite que o modelo Shan Hai não apenas realize interação de voz eficiente, mas também ofereça uma experiência fluida de conversa próxima à naturalidade humana.

2024-08-19 14:44:01.AIbase

Alibaba lança o modelo multimodal mPLUG-Owl3: assista a filmes de 2 horas em 4 segundos

O mPLUG-Owl3, recém-lançado pela equipe da Alibaba, é um modelo multimodal universal cuja principal capacidade é a compreensão de sequências longas de imagens. Ao introduzir um módulo de atenção extra, o mPLUG-Owl3 pode processar eficientemente informações visuais e linguísticas, permitindo uma compreensão e interação aprofundadas com dados multimodais como imagens e vídeos. Este modelo alcançou avanços significativos em eficiência de raciocínio, capacidade de processamento de imagens e aplicação de conhecimento multimodal, especialmente na área de compreensão de vídeo, sendo capaz de 'assistir' a um filme de 2 horas em apenas 4 segundos e responder com precisão a perguntas relacionadas.

2024-08-16 17:23:10.AIbase

Moore Threads e Knowin AI firmam parceria e concluem adaptação do modelo multimodal "Uma Folha Leve"

Recentemente, a Moore Threads e a Knowin AI anunciaram uma parceria estratégica para promover o uso de GPUs chinesas de função completa em soluções de modelos grandes do setor. As duas empresas concluíram o trabalho de adaptação do cluster de computação MUSA da Moore Threads e do modelo multimodal "Uma Folha Leve" da Knowin AI, integrando seus recursos de ponta em inteligência artificial para fornecer uma experiência de serviço mais inteligente e eficiente.

2024-08-02 09:04:21.AIbase

Google lança versão experimental do Gemini 1.5 Pro, um poderoso modelo multimodal que supera GPT-4o e Claude-3.5 Sonnet

O Google lançou sua mais recente criação em IA, o Gemini 1.5 Pro, disponível em versão experimental (0801) por meio do Google AI Studio e da API Gemini. Este modelo lidera o ranking LMSYS com uma pontuação ELO de 1300, superando o GPT-4o da OpenAI e o Claude-3.5 Sonnet da Anthropic. O Gemini 1.5 Pro demonstra excelente desempenho em tarefas multilínguas, matemática, codificação e visão computacional, com uma janela de contexto de 2 milhões de tokens.

2024-07-04 15:57:03.AIbase

网易伏羲 lança marca de robôs "Lingdong" e apresenta o modelo multimodal "Yisheng Zhu Xiang"

A marca "Lingdong" foi cuidadosamente criada pela NetEase Fuxi com base em modelos de grande porte de nível industrial e no conceito de tecnologia AOP (percepção e operação de inteligência artificial) de desenvolvimento próprio. Dois produtos principais da marca – robô escavadora e robô de carregamento – já estão em uso em mais de 50 projetos importantes em nível provincial, atendendo a ambientes de aplicação diversificados, como minas, portos, estações de mistura e escolas.

2024-06-27 16:41:35.AIbase

LeCun lança novo modelo multimodal de visão Cambrian-1; capacidades visuais superam o GPT-4V

No mundo da IA, acabamos de receber um novo membro notável: o Cambrian-1, um grande modelo de linguagem multimodal (MLLM) criado por LeCun, Xie Saining e outros grandes nomes do setor. Este modelo não representa apenas um avanço tecnológico, mas também uma profunda reflexão sobre a pesquisa em aprendizado multimodal.

2023-12-07 08:33:07.AIbase

Google lança o modelo multimodal Gemini 1.0, previsto para desenvolvedores no início do próximo ano

O Gemini é a mais recente geração de modelos de IA da Google, com capacidades multimodais. O Gemini está disponível em três tamanhos: Ultra, Pro e Nano, adequados para diferentes tarefas e dispositivos. O Gemini apresenta desempenho excepcional, superando outros modelos em vários testes de referência. O Gemini possui capacidades de raciocínio multimodal e codificação, podendo processar informações de texto, imagens e áudio. O Gemini será disponibilizado para desenvolvedores e empresas no início do próximo ano.

2023-11-03 09:35:33.AIbase

UC Santa Cruz desenvolve o modelo multimodal de código aberto MiniGPT-5

A Universidade da Califórnia, em Santa Cruz, desenvolveu o modelo MiniGPT-5, que alcança um alinhamento eficaz entre texto e imagem. O MiniGPT-5 emprega um codificador multimodal e a tecnologia Generative Vokens para gerar texto e imagens coerentes e de alta qualidade. Em testes em vários conjuntos de dados, o modelo superou os modelos de referência, demonstrando uma forte capacidade de adaptação.

2023-10-12 09:26:09.AIbase

Ex-alunos da Universidade de Zhejiang e Microsoft lançam modelo multimodal LLaVA, desafiando o GPT-4V

Ex-alunos da Universidade de Zhejiang em colaboração com o Microsoft Research lançaram o modelo multimodal LLaVA, desafiando o GPT-4V. O LLaVA se destacou em 11 conjuntos de dados de teste e recebeu mais de 6.000 estrelas. O modelo apresenta alta capacidade geral, superando o GPT-4V em 85% dos casos. O código-fonte, o modelo e os dados de treinamento do LLaVA já estão disponíveis.

2023-09-20 11:55:56.AIbase

OpenAI lança modelo multimodal GPT-Vision para competir com o Gemini do Google

A OpenAI está prestes a lançar o recurso de compreensão de imagens para o GPT-4, chamado "GPT-Vision", para competir com o Gemini do Google. O GPT-Vision permitirá que o GPT-4 tenha uma gama mais ampla de aplicações de imagem, gerando texto relacionado ao conteúdo da imagem. A OpenAI também está desenvolvendo um modelo de IA multimodal chamado "Gobi", que pode se tornar o GPT-5. A OpenAI planeja um evento para desenvolvedores em 6 de novembro.

2023-08-29 10:56:44.AIbase

MobiWall Intelligence lança o modelo multimodal de centenas de bilhões de parâmetros “Luca”; MobiWall Luca 2.0 inicia teste público

A MobiWall Intelligence lançou o modelo multimodal de centenas de bilhões de parâmetros “Luca”. O MobiWall Luca 2.0 inicia oficialmente o teste público. O Luca possui várias capacidades de modelos de linguagem e poderosas capacidades de processamento multimodal.

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Equipe da Universidade de Pequim lança o modelo multimodal LLaVA-o1, com capacidade de raciocínio comparável à do GPT-o1!

Mistral lança o Pixtral Large, seu modelo multimodal de código aberto mais poderoso, e atualiza o Le Chat para acesso direto ao Flux Pro

Pesquisa de IA da Salesforce lança novo modelo multimodal BLIP-3-Video: compreensão de vídeo de baixo custo

Alibaba International lança o Ovis, um novo modelo multimodal de IA que fornece etapas de cozimento apenas olhando para os pratos

Yun Zhi Sheng lança o modelo multimodal Shan Hai: com troca livre de timbre e compreensão de cenários visuais

Alibaba lança o modelo multimodal mPLUG-Owl3: assista a filmes de 2 horas em 4 segundos

Moore Threads e Knowin AI firmam parceria e concluem adaptação do modelo multimodal "Uma Folha Leve"

Google lança versão experimental do Gemini 1.5 Pro, um poderoso modelo multimodal que supera GPT-4o e Claude-3.5 Sonnet

网易伏羲 lança marca de robôs "Lingdong" e apresenta o modelo multimodal "Yisheng Zhu Xiang"

LeCun lança novo modelo multimodal de visão Cambrian-1; capacidades visuais superam o GPT-4V

Google lança o modelo multimodal Gemini 1.0, previsto para desenvolvedores no início do próximo ano

UC Santa Cruz desenvolve o modelo multimodal de código aberto MiniGPT-5

Ex-alunos da Universidade de Zhejiang e Microsoft lançam modelo multimodal LLaVA, desafiando o GPT-4V

OpenAI lança modelo multimodal GPT-Vision para competir com o Gemini do Google

MobiWall Intelligence lança o modelo multimodal de centenas de bilhões de parâmetros “Luca”; MobiWall Luca 2.0 inicia teste público